A/B 테스트 통계적 유의성(statistical significance)과 유의성 검정, p-value의 의미

2020-08-11 — Written by jslee

#statistics #a/b test

실험설계

실험설계는 모든 응용 연구 분야에서 통계분석의 토대
실험설계는 어떤 가설을 확인하거나 기각하기 위한 목표
실험설계
- 가설을 세운다 > 실험을 설계한다 > 데이터 수집 > 추론 및 결론 도출

A/B 검정

그룹 A와 그룹 B를 비교하는데 사용하는 검정통계량 또는 측정 지표에 주의
일반적으로 클릭/클릭하지 않음, 구매/구매하지 않음, 사기/사기 아님 등과 같은 이진변수
측정 지표가 연속형 변수(구매, 수익 등)인지 횟수를 나타내는 변수(입원 일수, 방문한 페이지 수) 인지에 따라 결과가 다르게 표시될 수 있다.
멀티암드 밴딧으로 해결해야 하는 유형의 실험설계
- 가격 A와 가격 B의 차이가 통계적으로 유의한가? 보다는 가능한 여러 가격 중에서 가장 좋은 가격은 얼마일까? 에 더 관심이 있다.

가설검정

가설검정^{hypothesis test}, 유의성 검정^{significance test} 은 전통적인 통계분석 방법
목적은 관찰된 효과가 우연에 의한 것인지 여부를 확인

통계적 유의성(statistical significance)과 p-value

통계학자가 자신의 실제 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지 판단하는 방법
결과가 우연히 벌어질 수 있는 변동성의 바깥에 존재한다면 통계적으로 유의
에러의 종류
- 제 1종 오류(type I error): 우연에 의한 효과가 실제 효과라고 잘못 결론 내린는 것 (예:실제 전환되지 않았는데 전환되었다고 결론)
- 제 2종 오류(type II error): 실제 효과를 우연에 의한 효과라고 잘못 결론 내리는 것 (예:실제로 전환되었는데 전환되지 않았다고 결론)
제 1종의 오류와 제 2종의 오류 둘중 어떤 에러가 클까?
- 2종 오류는 어떤 오류라기보다 표본크기가 너무 작아서 효과를 알아낼 수 없다고 판단하는 것과 같다.
- 보통 유의성검정의 기본 기능은 어쩌다 우연히 일어날 일에 속지 않도록 하는 것이다. 따라서 보통 1종 오류를 최소화하도록 가설을 설계

p-value

통계적 유의성을 정확하게 측정하기 위한 지표
확률모형이 관측된 결과보다 더 극단적인 결과를 생성하는 빈도
예) p-value: 0.32, 즉 우연히 얻은 결과의 32% 정도가 관찰한 것만큼 극단적이거나 그 이상 극단적인 결과를 얻을 것으로 기대

유의수준 (significance level)

우연히 얻은(귀무가설) 결과의 5%보다 더 극단적인 결과와 같이 어떤 임계값(5%)을 미리 지정하는 것을 선호.
임계값을 보통 유의수준(알파)이라고 한다. 많이 사용되는 유의수준은 5%와 1%
- 우인히 일어날 확률은 무엇인가? (x)
- 랜덤 모델이 주어졌을 때, 극단적인 겨로가가 나올 확류은 어느 정도인가? (o)